查看原文
其他

预测组合方法综述

王晓倩 狗熊会 2023-09-03
论文:Wang, X., Hyndman, R. J., Li, F., & Kang, Y. (2022). Forecast combinations: an over 50-year review. International Journal of Forecasting. DOI: 10.1016/j.ijforecast.2022.11.005

1 背景介绍

预测组合也被称之为组合预测、预测平均和模型平均,由 Bates 和 Granger 于 1969 年首次提出 (Bates & Granger, 1969),是预测领域的一个重要研究分支。如著名统计学家 George E. P. Box 所说:“所有的模型都是错误的,但其中有些是有用的”。预测组合通过对不同模型赋予不同的权重,回避了模型选择这一决策问题,同时也避免了“将所有鸡蛋放到一个篮子”可能产生的决策风险。相比预测选择,预测组合集结了多个单项模型所包含的信息和捕获的模式,一定程度上起到信息互补的作用,减少了与模型和参数确定有关的不确定性(即模型不确定性和参数不确定性),降低了选择单项模型和不充分模型的风险。现阶段已有充分的文献证明了预测组合的优越性:预测组合往往能够实现比单项预测模型更加精准的预测表现。图 1 展示了 1969–2021 年在 Web of Science 核心数据库中发表的所有预测论文中涉及预测组合的论文占比情况。从图 1 中可以观察到,过去五十多年以来出版的预测组合相关的论文在所有预测论文中的占比情况整体呈现出上升的趋势,并于 2021 年底达到 13.80%。鉴于其优越性,预测组合越来越广泛地被应用到各个领域的预测活动中,例如零售业中的销量预测、能源产业中的用电量预测、金融业中的经济指标预测、交通业中的客运量需求预测和医学中的流行病感染人数预测等。因此,对预测组合的研究不仅在理论上具有重要的学术价值,在实践中也具有广阔的应用价值。

图1: 1969–2021 年在 Web of Science 核心数据库中发表的所有预测论文中涉及预测组合的论文占比情况

预测组合的表现不仅依赖于预测模型池中单项基础预测模型的选取,还取决于赋予不同模型权重的估计。尽管现阶段已有充分的文献证明预测组合的稳健性和准确性,并且衍生出大量有关预测组合的权重估计算法,但仍存在一个亟待解决的难题:理论上,复杂精细的非等权重组合方法的预测表现应该优于简单的等权重组合(简单平均);但实际上,简单平均往往与复杂算法的预测表现不相上下,甚至更加稳健及精确,这一经典的预测组合难题又被称之为“预测组合之谜” (Forecast Combination Puzzle, Chan & Pauwels, 2018; Claeskens et al., 2016; Smith & Wallis, 2009; Stock & Watson, 2004)。

自 Bates 和 Granger 的开创性工作后,预测组合方法已经从无需参数估计的简单平均法发展到涉及时变权重、非线性组合、考虑基础预测之间相关性和交叉学习的复杂组合方法。然而,已有文献对预测组合理论方法发展历程的梳理远远不够,目前已知的著名综述有 Clemen (1989) 以及 Timmermann (2006),他们主要关注点预测组合方法。近年来,时间序列预测组合的研究及应用开始转向概率预测,这是由于概率预测能够对预测的不确定性进行评估。当使用概率预测时,如何考虑基础预测之间的多样性等问题可能比处理点预测组合时更复杂且更不易理解,在评估或选择组合方案时,还需要考虑预测的校准度和锐度等其他问题。此外,概率预测可以以不同的形式表示,如预测分布、分位数、预测区间等,基于不同形式的概率预测得到的预测组合结果可能具有不同的属性,如校准度、锐度和形状等。因此,对时间序列预测组合方法(尤其是概率预测组合方法)进行系统性地综述具有重要的理论意义。

2 点预测组合

2.1 简单点预测组合

目前已经积累了大量研究点预测组合的文献,其中一个公认的结论是:简单平均法是一个很难被打败的组合策略。与更复杂的其他组合策略相比,简单平均法虽然忽略了基础预测的精度差异以及预测误差间的相关性,但其预测效果更好且更稳定。尽管点预测没有提供对预测不确定性的度量且为决策提供的信息有限,但绝大多数预测组合的研究焦点都集中在点预测上。等权重的简单平均法作为最流行的组合方法因其稳健的预测表现从众多组合方法中脱颖而出。Makridakis & Winkler (1983) 根据经验得出结论,在简单平均方案中包含更多的基础预测模型将有助于提高组合预测的准确性及降低模型选择带来的不确定性。

Palm 和 Zellner 将简单平均法的优点简明扼要地总结为三个方面:(1) 其组合权重是相等的,不需要估计;(2) 简单平均法在许多情况下通过平均化个体偏差而大大减少了方差和偏差;(3) 在考虑到权重估计的不确定性问题时,应考虑简单平均法。此外, Timmermann (2006) 指出,简单平均法的突出平均性能在很大程度上取决于基础模型的不稳定性和各预测误差方差的比率。

除简单平均外,还有其他简单的点预测组合方法逐渐受到关注,例如中位数、众数、 截尾平均 (Trimmed Mean) 和缩尾平均 (Winsorized Mean) 等。相比简单平均,这些简单组合方法受极端预测的影响较小。

与各种复杂的组合方法相比,简单组合方法在大数据时代似乎已经过时且竞争力减弱。但大量文献通过实验表明简单平均法设定了一个苛刻的基准,很少有组合方案能超越它。此外,简单的组合方法仅需要较低的计算成本,比其他组合方案更有效。因此,简单组合策略一直是许多研究人员和预测实践者的不二选择,并为评估新提出的加权预测组合算法的有效性提供了一个具有挑战性的基准。

2.2 线性点预测组合

尽管简单组合方法很简单且预测性能良好,但给更准确的基准预测分配更大的权重是有意义的。点预测组合的问题可以定义为寻求一个一维聚合器,将基于时间之前的信息得到的步向前预测向量整合为一个单一的组合后的步向前预测, 其中是一个维的组合权重向量,是预测水平(Forecast Horizon),表示从预测原点(Forecast Origin)到预测期终点的时间跨度。由映射代表的组合方法类别包括线性和非线性组合,以及基于Stacking集成学习的点预测组合。此外,组合权重可以是固定的(不随时间变化),也可以是时变的。接下来本节将详细介绍和讨论各种确定组合权重的权重估计方法。

通常情况下,组合的预测是由多个单项基础预测的线性组合构成的,可表示为:

其中,是分配给个基础预测的维线性组合权重向量。

目前文献中,用于估计线性点预测组合的方法主要分为以下五类:

1.最优组合权重

Bates & Granger (1969) 提出了一种组合权重估计方法,通过最小化组合后的预测误差的方差来寻找所谓的“最优”权重。但他们只讨论了两个基础预测的组合情形。随后,Newbold & Granger (1974) 将该方法扩展到两个以上的预测组合中。如果单项基础预测是无偏的,而且它们的误差方差在一段时间内是一致的,那么通过线性组合得到的组合预测结果也将是无偏的。对求一阶导使得组合预测误差的方差达到最小化,其最优权重可表示为:

其中是向前步预测误差构成的维协方差矩阵,是一个维单位向量。在实践中,协方差矩阵通常是未知的,需要进行估计。

2.基于回归的组合权重

Granger & Ramanathan (1984) 开创性地在线性回归框架下估计“最优”权重。他们认为在根据过去的观察值和基础预测构建的回归模型中,组合权重可以通过普通最小二乘法 (Ordinary Least Squares, OLS) 来估计。在不同的约束条件下构建了不同的回归模型形式,表示为:

大量的文献考虑了基于回归的预测组合的一般化问题。例如,将组合预测误差描述为自回归移动平均 (AutoRegressive Moving Average, ARMA) 过程,从而在最小二乘法框架中利用序列相关的误差并得到更精确的组合预测;使用绝对损失函数而不是二次损失函数,得到最小绝对偏差回归以及相比 OLS 预测组合对异常值更加稳健的结果。研究人员还致力于在回归框架中使用时变权重来解决基础预测可能会出现的各种结构性变化,以及在预测池中包括大量的基础预测以达到充分利用更多基础预测模型的优势的目的等。

3.基于预测表现的组合权重

由于协方差矩阵难以被正确估计,特别是在对大量基础预测进行组合的情况下对协方差矩阵的估计更加困难,“最优”权重和基于回归的权重的估计误差往往特别大。相反, Bates & Granger (1969) 建议忽略预测误差的序列相关性并使用与历史表现成反比例的权重进行预测组合。在后续的研究中, Newbold & Granger (1974) 以及 Winkler & Makridakis (1983) 通过考虑更多时间序列、更多单项基础预测和多步向前预测将 Bates 和 Granger 的想法进行扩展。他们的研究结果表明,忽略预测误差相关性的预测组合比那些试图考虑相关性的预测组合更成功,这再次证实了 Bates 和 Granger 的论点,即相关性在实践中可能被估计得很差,在计算组合权重时应该被忽略。将 Bates 和 Granger 提出的在未知时估计组合权重的五个方案扩展到一般情况,具体如下:

其中,为向前步基础预测的预测误差构成的维向量。

其他形式的预测误差度量指标,如均方根误差 (Root Mean Squared Error, RMSE) 和对称平均绝对百分比误差 (Symmetric Mean Absolute Percentage Error, sMAPE) 也常被用于计算基于预测表现的组合权重 (Nowotarski et al., 2014; Pawlikowski & Chorowska, 2020)。

与直接使用历史预测误差构建权重相比,文献中还引入了一种新的组合形式,即基于单项基础预测的表现“排名”构建权重。这种组合更加稳健,对异常值敏感性较低。同样地,这种组合忽略了预测误差之间的相关性。这类方法中最简单和最常用的是使用基础预测的中位数作为输出。

4.基于信息准则的组合权重

在预测研究及实践中,信息准则经常被用于进行模型选择,例如 Akaike 信息准则 (AIC)、修正的 Akaike 信息准则 (AICc) 和贝叶斯信息准则 (BIC)。然而,从候选的基础模型中仅选择一个模型可能会存在较大的模型设定错误且不能充分利用所获得的所有备选模型的优势。因此,Burnham & Anderson (2002) 提出根据信息准则构建权重,将多个备选模型进行组合,以减轻选择单一模型可能会带来的风险。

一种常见的组合方法是使用 Akaike 权重。具体来说,鉴于 AIC 度量了一个模型与真实数据生成过程之间的 Kullback-Leibler 距离, AIC 的差异可以用来对不同的预测模型进行加权。该差异提供了一个衡量相对于其他基础预测模型而言支持一个特定预测模型的证据。给定个单项基础模型,第个模型的 Akaike 权重可以表示为:

以这种方式计算的 Akaike 权重可以解释为,在给定模型集和可用的历史数据的情况下,一个特定的模型在近似未知的数据生成过程方面表现最好的概率。根据 AICc、BIC 和其他带有不同惩罚变体得到的组合权重也可以根据公式类推。

基于信息准则的加权组合具有突出的预测表现,这一结论已经在大量相关研究中得到了证实。例如, Kolassa (2011) 使用根据 AIC、AICc 和 BIC 计算的权重来组合一组指数平滑模型的预测值,并获得了相比使用相同信息准则进行模型选择更高的预测准确性。Petropoulos et al. (2018) 采用了类似的策略探讨了使用 Bagging (Bootstrap Aggregation) 进行时间序列预测组合的优势。此外, Petropoulos 等人的实证研究表明,基于 AIC 构建的加权组合提高了他们使用的基准统计预测方法的性能。

5.贝叶斯组合权重

当获取到新的信息时,贝叶斯方法常用来更新预测组合权重。无论是否忽略预测误差之间的相关性,获得对预测误差构成的协方差矩阵的可靠估计都是预测实践中的一个重大挑战。考虑到这一点, Bunn (1975) 提出了以每个基础预测模型在任何特定场合表现最好的概率为基础的贝叶斯组合策略。将贝塔分布和狄利克雷分布分别作为二项和多项进程的共轭先验, Bunn 建议的非参数方法在历史数据相对较少的情形下,通过给单项基础预测附加主观先验概率的方式得到了良好的预测表现 (De Menezes et al., 2000)。此外,Öller (1978) 在贝叶斯更新方案中提出了另一种使用主观概率的方法,即基于与专家预测能力评价成比例的自我评分权重。

另一个研究方向也主张将先验信息纳入组合权重的估计中,不同的是该策略是基于回归的组合框架将权重向先验均值缩减 (Clemen & Winkler, 1986; Diebold & Pauly, 1990)。

2.3 非线性点预测组合

线性组合方法隐含地假设了基础预测和待预测变量之间的线性依赖关系,且可能不会产生最佳的预测结果,特别是当单项基础预测来自非线性模型,或者单项基础预测和最佳预测之间的真实关系是以非线性系统为特征时,该问题会更加显著。在这种情况下应当放松线性假设条件,考虑复杂度更高的非线性组合方案。但到目前为止,文献中对非线性预测组合的研究仍然非常有限。

正如 Timmermann (2006) 所指出的,有两种类型的非线性可以被纳入预测组合中:一种类型是包含单项基础预测的非线性函数,但组合权重的未知参数以线性形式给出。另一种类型是更普遍的非线性组合,在组合权重参数中直接考虑非线性因素。神经网络提供了学习到未来真实值和单项基础预测之间潜在非线性关系的可能性,因此经常被用来估计非线性映射。然而,神经网络模型需要估计更多的参数,其设计非常耗时且可能会产生过度拟合和预测性能不佳等问题。

一些非线性点预测组合有:Donaldson & Kamstra (1996), Krasnopolsky & Lin (2012), Babikir & Mwambi (2016), Freitas & Rodrigues (2006), Adhikari (2015)等。但是,他们所提供的经验证据都是基于不足 10 条时间序列得到的,这些实证结果可能是人为挑选出来的,可信度较低。此外,这些非线性组合方法还存在一些其他缺点,包括忽略了预测误差之间的相关性、参数估计的不稳定以及用于产生单项基础预测的信息集重叠引起的多重共线性。因此,相对于线性组合,非线性组合的性能需要进一步调查。显然,非线性预测组合需要进一步的研究。尤其是现有研究提出的非线性组合方案的预测性能应该通过一个较大的的时间序列数据集和适当的统计推断来进行进一步的调查和研究。此外,开发能够考虑到预测误差相关性和基础预测多重共线性的非线性组合方法迫在眉睫。

2.4 基于 Stacking 集成学习的点预测组合

在集成学习 (Ensemble Learning) 中除了 Bagging 和 Boosting 这两种对数据进行横向划分的方法外,还有一个纵向划分(加深)的方法, 一般称为堆栈泛化 (Stacked Generalization, Stacking)。Stacking 经常被用于各种分类任务。在时间序列预测的背景下, Stacking 为组合多个基础预测模型提供了一种新的策略,其使用元学习的概念来提高预测的准确性,预测性能超过任何一个单项预测模型所获得的预测表现。 Stacking 是集成学习中组合方法进一步泛化的结果,是一个一般性的框架。其至少包括两个层次:第一个层次包括使用原始数据训练单项预测模型,而第二个层次和后续层次则利用一个额外的“元学习器”将前一层次的输出(预测结果)作为元学习器的输入,进行集成。因此,预测组合的 Stacking 集成方法是利用元学习器对单项基础预测进行加权。该框架简单且灵活度高。

现有预测文献中有许多实现 Stacking 策略的方式。其中,主要的实现方式是面向单条时间序列进行预测组合。可用预测模型池中的每个预测模型都只使用单条时间序列数据进行训练,且它们的预测输出随后作为输入传入为目标序列定制的元模型中,以计算最终的组合预测。这意味着条时间序列数据需要训练个元模型。上文中讨论的基于回归的加权组合就属于这一类别,且可以被看作是 Stacking 中最简单且最常用的学习算法。扩展窗口或滚动窗口等技术可以有效地用于保证为元模型训练产生足够的单项基础预测。在单项预测模型和元模型的训练过程中,同样也推荐使用时间序列的交叉验证方法,也称为“基于滚动预测原点的评估”。时间序列的交叉验证可以帮助进行参数估计。尽管如此,面向单条时间序列的 Stacking 集成学习方法仍然存在一些局限性,如需要较长的计算时间、较长的时间序列以及对训练数据的使用效率不高等。

另一种实现 Stacking 策略的方式则挖掘利用了交叉学习的潜力。具体来说,元模型的训练是基于多条时间序列的信息进行的,而不是只使用一条序列的信息,因此该方式可以从不同的时间序列中捕捉各种模式。由 100,000 条时间序列组成的 M4 预测竞赛充分认识到了交叉学习的好处。越来越多的研究表明,表征数据集中每条序列的特征能够通过交叉学习的方式为预测组合提供有价值的额外信息,这为 Stacking 集成学习的进一步扩展研究奠定了坚实基础。目前已经开发了许多用于提取时间序列特征的软件包,包括 R 软件包 feasts 和 tsfeatures,Python 软件包 Kats、tsfresh 和 TSFEL,Matlab 软件包 hctsa,以及 C 编码软件包 catch22。Henderson & Fulcher (2021) 对这些软件包提取的时间序列特征集进行了经验评估。以交叉学习的方式实现 Stacking 集成也有其自身的局限性。第一个局限在于 Stacking 集成学习需要一个大规模的、多样化的时间序列数据集来实现有意义的训练过程。这个问题可以通过在一些假定的数据生成过程的基础上模拟时间序列来解决 (Talagala et al., 2018),也可以通过生成具有多样化和可控特征的时间序列来解决 (Kang, Hyndman & Li, 2020)。此外,尽管已有大量预测组合文献考虑到特征识别和特征工程 (Kang et al.,2017; Lemke & Gabrys, 2010; Li et al., 2020; Montero-Manso et al., 2020),基于特征的预测组合方法仍有一些尚未得到关注的问题,包括如何设计一个合适的特征库以实现此类方法的最佳效果,以及元模型的最佳损失函数的设计等。

3 概率预测组合

3.1 概率预测

概率预测有三种形式:区间预测、分位数预测和密度预测(或概率分布预测、预测分布)。对于不同概率预测形式,其预测组合方式也会有所不同。例如,分位数预测可以表示为累积分布函数所代表的密度预测的反函数,但组合分位数预测和组合密度预测的结果可能并不等同。 Lichtendahl Jr et al. (2013) 提供了平均分位数预测和平均密度预测的简单例子用以说明两者的区别。区间预测是一个重要的概率预测形式,通常使用分位数预测来构建,其上下界是对应概率预测分布的特定分位数。例如,中心预测区间的下界和上界可以通过水平的分位数来定义。

与点预测一样,组合多个概率预测可以实现不同信息集和不同形式预测模型的充分利用,避免选择单项预测模型可能存在的潜在错误设定等问题。实证研究表明,由于未知数据生成过程中的结构不稳定性,不同预测模型的相对性能往往随时间而变化。因此,将多项概率预测进行组合以获得可以整合不同来源信息的组合预测是非常必要的。

3.2 概率预测评分规则

决策者在点预测组合实践中主要关注准确性,而在处理概率预测的组合时还需要考虑其他度量,例如校准度和锐度等 (Gneiting et al., 2007; Gneiting & Raftery, 2007; Lahiri et al., 2015)。校准度 (Calibration) 指的是概率预测和观测值在统计上的一致性,因此可以视为预测值和观测值的联合属性。在实践中,概率积分变换 (Probability Integral Transform, PIT) 通常作为一种非正式的诊断工具来评估概率预测的校准度,该诊断工具对连续和离散概率预测都适用。PIT 的优势之一是便于可视化。最简单的做法是绘制直方图。表现出近似均匀分布的直方图意味着概率预测校准良好;形的直方图意味着预测分布过于集中;形的直方图意味着预测分布过于分散;明显不对称的直方图则意味着预测分布整体偏离真实值。锐度 (Sharpness) 指的是概率预测分布的集中程度,因此可以视为只与预测值有关的一个属性。概率预测锐度越高越好。在考虑区间预测时,锐度很容易理解:预测区间越窄则锐度越高。因此,在考虑密度预测时,锐度可以用中心区间预测的宽度来进行评估。

根据 Gneiting et al. (2007) 的观点,概率预测的目标是在满足一定校准度的前提下最大限度地提高预测的锐度。因此,鼓励较高的校准度和锐度的评分规则很有吸引力,可以为概率预测的质量提供总结性的度量,分数越高则说明预测越好。对于概率预测来说,如果评分规则满足条件“当时,从分布中抽取的观测值的预期得分是最大的”,那么它就是适当评分规则 (Proper Scoring Rule)。 如果预期得分的最大值是唯一的,那么它就是严格适当评分规则 (Strictly Proper Scoring Rule)。Gneiting & Raftery (2007) 对概率预测的各种适当评分规则进行了较为系统的回顾和讨论。

组合多个概率预测的方法已经从简单的预测分布混合 (Distribution Mixture) 发展到更复杂的考虑分布之间相关性的组合。选择使用哪种类型的组合策略主要取决于计算复杂度以及组合预测在准确性、校准度和锐度等方面的整体表现。

3.3 线性概率预测组合

概率预测旨在对目标随机变量或现象未来可能出现的结果估计相应的概率,提供概率密度函数。对于随机变量,利用截止到时间点为止的历史数据信息集获得时间点对应的个单项基础概率预测,并使用累积概率分布表示,其中

目前文献中,用于估计线性概率预测组合的方法主要分为以下两大类:

1.线性混合

概率预测组合研究中最普遍采用的方法之一是利用估计得到的权重直接计算个单项概率预测的混合分布。该方法忽略了单项概率预测之间的相关性。在组合专家主观概率分布预测的文献中,该方法通常被称为“线性意见池” (Linear Opinion Pool, LOP),其研究至少可以追溯到 Stone (1961)。概率预测的线性组合可以被定义为有限个单项概率预测的混合分布

其中是分配给第个概率预测的权重。这些权重通常被设定为非负值且权重之和为 1, 以保证组合后的预测保留非负值和积分为 1 的特性。组合后的概率预测具有很多优良性质,如一致性(如果所有单项基础概率预测都为同一个概率分布,那么组合后的概率预测也为该分布)等。

概率预测的线性混合可以包容偏度、峰度(厚尾)以及多模态,即使当基础概率预测均为正态分布时也是如此。需要注意的是,组合后的概率分布的均值等于各单项基础概率预测均值的线性组合。而点预测一般由预测分布的均值表示,因此,从这一点上看,概率预测的线性混合与线性点预测组合是一致的。然而,当单项基础概率预测的均值不同时,组合分布的方差要大于基础概率预测方差的线性组合。简单地说,单项基础概率预测的多样性增加会导致组合后的概率预测(混合预测)的锐度降低,且单项基础概率预测之间均值的差异会导致组合后的概率预测信心不足 (Under-confident)。即使在单项基础概率预测具有很好校准度的理想情况下,它们组合后所产生的组合概率预测也可能具有很差的校准度。

原则上,概率预测既可以在组合之前进行校准,也可以在组合之后进行重新校准。然而,对校准错误程度的度量是非常具有挑战性的,不同预测或不同时间的校准错误可能会表现出很大的差异,因此在进行预测组合后往往需要重新校准。因此,一些文献开始研究替代的预测组合方法来解决校准问题,例如“修剪意见池” (Jose et al., 2014)。另外一些研究则倾向于使用非线性预测组合方法来解决校准问题。

决定线性混合是否成功的关键在于如何估计赋予各个基础概率预测的组合权重。与点预测组合一样,等权重是一个有效的备选方案。当可获取的历史数据有限时,确定概率预测组合的最优权重具有很大的挑战性。

受点预测组合中最小化 MSE 损失函数以获得“最优”权重的启发, Hall & Mitchell (2007) 建议通过最小化组合概率密度预测和真实(但未知)概率密度之间的 Kullback-Leibler 信息准则 (Kullback-Leibler Information Criterion, KLIC) 来估计组合权重。

在 Hall & Mitchell (2007) 的开创性工作基础上,人们对概率预测组合的策略提出了许多扩展和改进,例如使用严格适当的评分规则 (Gneiting & Raftery, 2007)、考虑时变权重 (Li et al, 2021)、使用每个单项基础概率预测的相对历史表现的对数分数来构建递归权重 (Jore et al, 2010) 等。

2.贝叶斯模型平均

贝叶斯模型平均 (Bayesian Model Averaging, BMA) 方法提供了一种基于贝叶斯理论的将预测模型本身的不确定性考虑在内的概率预测组合方法。该方法利用基础概率预测的模型后验概率将多个基础概率预测进行组合。贝叶斯模型平均为解释模型的不确定性问题提供了一个概念上优雅和逻辑上连贯的解决方案 (Draper, 1995; Garratt et al., 2003; Leamer, 1978; Raftery et al., 1997) 在该方法中,后验概率预测是通过混合一组来自预测模型的基础概率预测分布得到的,可以表示为

其中是模型的后验概率。决策者通过使用贝叶斯公式更新模型为真实模型的先验概率,以计算模型的后验概率
其中
是模型的边际似然值,是模型未知参数向量的先验概率密度,是模型的似然函数。

贝叶斯模型平均可以看作是基础概率预测线性混合的特殊形式,其组合权重为模型后验概率。需要注意的是,由模型后验概率表示的权重没有考虑单项基础概率预测之间的相关性。贝叶斯模型平均方法提供了一种处理模型不确定性的通用框架,且不需要使用共轭分布族。计算模型的后验概率公式中,后验概率表示模型在 KLIC 测量距离下表现最好的概率,度量了该模型与真实观测值的拟合程度。

贝叶斯模型平均在理论上具有良好的性质,然而将该方法应用于实践时会面临三个主要的挑战:

  • 一是如何正确指定使用的模型空间以避免模型空间不完备 (Model Incompleteness)。

  • 第二个挑战在于模型的两类先验(关于参数和模型)的设定困难。

  • 最后一个挑战在于模型的边际似然值公式中积分的计算。除了具有共轭先验的广义线性回归模型外,在多数情况下推导边际似然所需的积分计算是极其困难的。因此,拉普拉斯 (Laplace) 方法以及马尔科夫链蒙特卡洛 (Markov chain Monte Carlo, MCMC) 方法经常被用来提供一个较好的的近似值。

贝叶斯模型平均方法的缺点主要有两方面:

  • 一方面,其包含一个隐含的假设,即假设真实模型包含在使用的模型空间中。在这个假设下,当样本量趋向于无穷大时,只有一个模型的后验概率会收敛为 1, 其他模型的后验概率则会收敛为 0。因此,当模型空间不完备(即考虑在内的所有模型都不正确)时,根据贝叶斯模型平均得到的组合预测可能会被错误地指定,从而产生模型不完备的问题。

  • 另一方面则与分配给基础预测模型的固定组合权重有关。使用固定组合权重忽略了权重的不确定性,这使得当单项基础预测模型的预测性能不稳定或者存在结构性变化时会产生不稳定的组合概率预测结果。因此,在预测组合中,组合权重随时间变化的设定更加合理 (Raftery et al., 2010)。

3.4 非线性概率预测组合

经典的线性概率预测组合方法虽然简单、直观且在文献中被广泛使用,但它也存在一定的局限性,例如校准问题等。概率预测的线性组合增大了预测的方差,并可能产生一个次优解,既缺乏校准度也缺乏锐度。基于线性组合策略的局限性,文献中涌现了一批替代线性组合方法的非线性组合方法以实现重新校准的目的。

常用的非线性概率预测组合方法主要包括广义线性混合 (Generalized Linear Pool)、分散调整线性混合 (Spread-adjusted Linear Pool) 、贝塔转换线性混合 (Beta-transformed Linear Pool) 等。

这些非线性组合方法的本质是对基础概率预测或线性组合后的概率预测进行各种转化以达到修正校准和锐度的目的,这些转化可以是线性的,也可以是非线性的。

3.5 基于贝叶斯定理的概率预测组合

上述讨论的概率预测组合方法旨在组合/混合多个基础概率预测,组合权重可以是等权重、使用各种评分规则估计的权重或通过贝叶斯定理依次更新的模型后验概率。这些组合方法本质上忽略了各基础概率预测之间的相关性。然而,在实践中,不同来源渠道获取的基础概率预测很有可能共享相同的数据、重叠的信息、类似的预测模型和共同的训练过程。因此,单项概率预测之间极有可能存在某种依赖性,而这种依赖性会对组合后的分布产生严重负面影响。

在概率预测组合的大量文献中,大多数方法都是从贝叶斯的角度出发考虑各基础分布之间的相关性。这一思路至少可以追溯到 1968 年 Winkler (1968) 的开创性工作。需要注意的是,在前几节介绍的组合方法中,每个基础概率预测对最终的组合概率预测的贡献都是通过组合权重明确衡量的,而在此处将要讨论的基于贝叶斯定理的概率预测组合方法中,该贡献并不以显示形式明确给出。

在预测组合领域,贝叶斯流派的早期工作主要集中在 Morris (1974, 1977) 设计的贝叶斯范式上,即决策者将来自不同来源的可用概率预测简单地视为数据,并通过贝叶斯定理 (Bayes’ Theorem) 更新其先验分布。在时间点,决策者的目标是预测,并从可用模型池中获取向前步概率预测。此时,的后验概率预测为

其中表示决策者在现有信息下对的先验概率,表示基于各基础预测分布得到的联合似然函数。

因此,该后验概率预测问题可以分解为两个子问题:指定先验分布和确定由各基础预测得到的联合分布(或联合似然)的形式。关于先验分布的形式,文献中通常考虑使用扁平先验 (Flat Prior),尽管其极有可能是不恰当的。这是由于:(1) 假设决策者所知道的一切信息都已反映在各基础预测分布中,则该形式是合理的;(2) 即使各基础预测分布没有反映决策者的全部已知信息,来自决策者的其他未反映的信息可以作为额外的基础预测分布纳入似然函数中。因此,基于贝叶斯定理的预测组合得以应用的关键及难点在于确定似然函数,这需要考虑单项基础预测分布的偏差、精度以及它们之间的依赖性。

部分研究考虑预测误差的联合分布作为似然,且使用基础预测误差之间的相关性来代表和衡量基础预测分布之间的依赖性。这部分研究的重点在于通过采用某些分布假设使似然的计算变得可行 (Winkler, 1981)。Jouini & Clemen (1996) 从不同的角度出发,研究了从基于 Copula 的联合分布中得出的似然函数,其中各概率预测分布之间的依赖性被反映到 Copula 中。该方法能够处理具有任意分布的单项基础预测。

3.6 基于积分的概率预测组合

一个完全指定的贝叶斯模型很难概念化,特别是当单项基础预测分布(尤其是它们之间的依赖关系)的偏差和校准错误是随时间变化时更加困难。基于该挑战,McAlinn & West (2019) 调整并扩展了基础的贝叶斯预测合成 (Bayesian Predictive Synthesis, BPS, Genest & Schervish, 1985; West, 1992; West & Crosse, 1992),提出新的概率预测组合方法,使其可以应用于时间序列预测。在贝叶斯预测合成模型的动态扩展中,后验概率预测的形式为

其中,表示决策者在预测原点前可用的全部基础概率预测,是时间维潜变量,是给定的定义合成函数的条件分布。

动态贝叶斯预测合成方法不是通过将似然乘以先验来构建贝叶斯组合的,而是遵循贝叶斯更新规则的一个子类,即基于积分来进行更新。此时,偏差、校准错误和各基础预测分布之间的依赖关系等信息都可以通过合成函数直接考虑。文献中建议针对不同的预测水平对贝叶斯预测合成模型进行调整,这是由于单个预测模型在不同的预测水平可能具有不同的预测性能。 MCMC 方法可用于该后验推断,以使得基础预测之间的依赖关系通过贝叶斯预测合成参数的迭代更新得到考虑。

3.7 分位数预测组合

概率预测也可以以分位数预测的形式表示。分位数预测可以表示为相应概率预测的累积分布函数的反函数。分位数组合是对单项基础预测的分位函数进行组合,而不是像线性混合方法那样对分位函数的反函数(即预测分布)进行组合。换句话说,分位数组合需要对单项基础预测的累积分布函数进行横向平均,而线性混合则需要进行纵向平均操作 (Lichtendahl et al., 2013)。

分位数预测的标准组合策略是为每个基础预测模型的所有分位数水平分配相同的权重。令表示单项基础预测的累积分布函数,其相应的概率密度函数由表示,并令表示相应的分位函数,。分位数预测组合可由以下公式给出

其中权重且满足条件。这种分位数组合策略在文献中也常被称为 Vincentization (Vincent, 1912)。

与线性混合不同,如果单项基础预测来自同一位置-刻度分布族(例如正态分布、Logistic 分布、Cauchy 分布等),那么分位数预测平均会得到来自同一分布族的组合分布,其参数由单项基础预测参数的加权平均给出。因此,正态分布的分位数预测平均总是单模态且正态的,而线性混合一般来说可能是多模态的。此外,分位数预测平均和线性混合方法得到的组合预测分布具有相同的均值,但分位数预测组合得到的组合预测分布往往更加尖锐且自信,这主要是因为当单项基础预测的均值存在分歧时,线性混合方法会导致额外的分布扩散。

那么,平均分位数(如分位数预测组合)和平均概率(如线性混合)这两个组合策略哪个更好? Lichtendahl et al. (2013) 以及 Busetti (2017) 聚焦简单平均(等权重),分别从理论和实证分析角度对这两种组合策略的性质进行了比较。他们得出结论,总体上分位数平均法是一种更可取的组合策略。

另一个常见的组合策略则是为不同分位数水平下的基础预测模型赋予不同的权重,即为每个单项基础预测模型和每个分位数水平分配单独的权重。例如,单项分位数预测可以通过 Pinball 损失函数值的倒数进行加权 (Wang et al., 2019)。这种更加灵活的组合策略使预测组合能够适应单项基础预测模型在不同的分位数水平上可能具有不同的预测性能这一事实。然而,该策略中,需要学习的组合权重数量随着考虑的分位数水平的增加而增加,这使得预测改进的实现具有一定的挑战性。一些计算量较高的技术,例如网格搜索和线性规划求解器 (Linear Programming) 等,很难扩展到大数据集。更重要的是,与该策略相关的实证研究中使用的数据集不够大,结果不具有可靠性,且其获得的预测提升并不足以证明该策略的优势。

一个独立的研究方向是研究VGF7 无模型的预测组合启发式方法,它经常作为基准方法衡量新提出的组合策略是否有效。从统计学的角度来看,这些启发式方法假设基础预测分布具有相同的特征值,将从个单项基础预测分布中得出的个分位数预测融合汇集在一起,使用全部预测来得出对预测分布特征的更精确的估计。

虽然组合分位数与组合概率分布联系密切,但与概率预测的组合相比,基于分位数预测组合的理论研究几乎没有。目前仅知的一个理论研究是: Lichtendahl et al. (2013) 对分位数预测的简单平均的统计特性以及从该平均中获取预测性能提升的潜力进行了理论探讨。而对于组合权重选择的研究目前只停留在实证分析层面。因此,需要进一步的研究来探索分位数预测组合中组合权重的理论性质。

分位数交叉是一个众所周知的问题,它因分位数预测缺乏单调性引起,当在不同的分位数水平下使用不同的组合权重时可能会出现这个问题。很明显,一些无模型的启发式方法也可能会存在分位数交叉问题。通常,避免分位数交叉的方法有两类:(1) 将基础预测模型的组合问题转化为一个受更多非交叉约束的优化问题; (2) 在组合分位数预测后进行重新排序。重新排序的方法虽然简单,但其永远不会恶化以 Pinball 损失函数表示的预测性能,因而在实践中经常被推荐使用。

区间预测是分位数预测的一个重要特例,因此前面介绍的分位数预测的组合方法自然也适用于区间预测。在构造区间预测的组合时,应注意组合得到的区间预测不能保证提供目标覆盖率。因此,在评价组合区间预测时,应使用考虑到宽度和覆盖率的评分指标,且这些评分指标可以作为确定组合权重的目标函数,详细示例可参考 Gneiting & Raftery (2007) 以及 Jose & Winkler (2009)。

对于区间预测,常见的有六种启发式方法:(1) 简单平均,(2) 中位数,(3) Envelope,(4) 内部修剪,(5) 外部修剪,以及 (6) 端点的概率平均 (Probability Averaging of Endpoints),详情可参考 Gaba et al. (2017) 及 Park & Budescu (2015)。这六种启发式方法几乎没有计算成本,由于其稳健性和在不同场景下解决信心不足/过度自信的好处,被最近的研究广泛推广。这些启发式方法可以很容易地扩展以解决分位数组合问题,即对每个分位数水平对应的基础分位数预测进行组合。

相比分位数预测组合,确定区间预测的组合权重显然更容易实现,在组合时仅需要考虑两个分位数预测指标。例如,通过假设区间围绕点预测对称,Montero-Manso et al. (2020) 以最小化预测区间的 MSIS (Mean Scaled Interval Score) 得分为目标训练基于特征的元学习器,将其产生的组合点预测作为组合区间的中心,并将基础预测半径的线性组合作为组合区间的半径。

4 结论与未来展望

通过对近 50 年来预测组合方法文献中的方法进行综述,我们对目前的一些研究差距和对未来研究的潜在见解进行以下总结。

1.继续深入研究简单平均组合方法。 在距离 Bates 和 Granger 的预测组合研究工作 50 多年后,令人惊讶的是,在实证研究中,简单平均法在经验上仍然优于理论上更优的复杂加权组合,构成了一个难以战胜的基准组合方法。尽管众所周知,“预测组合之谜”源于对组合权重的估计不稳定,然而现有的研究仍然缺乏全面的定量决策指南,即何时选择简单平均法而不是其他更复杂的组合策略。

2.保持预测组合策略“复杂且简单”。 预测模型和预测组合方法在规模和复杂程度上都有了迅速的增长。然而,实证结果中却没有一致的证据表明复杂性一定可以提高预测的准确性。基于已有文献的经验,本文建议保持预测组合策略“复杂且简单”,以权衡为不同基础预测模型定制权重的优势和复杂加权方案中训练组合权重的不稳定性。此外,本文建议在今后的研究中展开详细的分析,以深入探讨各种复杂的组合策略是如何以及为什么发挥作用的,从而为在特定情况下选择哪种组合方法提供更多的见解。

3.研究组合预测的统计推断。 “预测组合之谜”主要是指在固定的简单权重和随机的“最优”权重两者之间的选择问题。与该预测组合难题相关但不完全相同的一个问题是组合权重的随机性(特别是与预测的相关性)使得对加权组合后得到的预测进行统计推断变得非常困难。在大多数情况下,要获得一个标准误差是困难的,而要获得抽样分布则难上加难。获得组合预测是一个方面,在统计意义上如何处理它是另一个方面。因此,未来对组合权重的随机性和组合预测的统计推断的研究将是有意义的。

4.推进非线性预测组合的理论及实证研究。 在预测文献中,多项基础预测的线性组合带来的预测精度提升已经得到了证实。目前在预测组合研究中,已有一些工作开始对非线性预测组合问题进行探讨,这为捕捉和学习未来真实值与基础预测间的潜在非线性关系提供了可能。然而,在该方向上的研究工作非常有限,且大多数工作都是通过加入单项基础预测的非线性函数或基础预测对的非线性组合项来考虑真实值与预测间的非线性关系。从理论角度看,这些研究工作存在一些局限性,例如参数估计不稳定且忽略了基础预测之间的相关性等。从实证角度看,这些研究所提供的支持非线性组合方法的经验证据都是基于极少量时间序列甚至是单条时间序列得到的,这些结果可信度较低且没有说服力。因此,未来的预测组合研究可以考虑进一步扩展非线性预测组合的理论研究、丰富非线性组合形式以及基于大规模数据集调查非线性组合的预测性能和稳定性。

5.选择用于组合的基础预测。 单项基础预测构成的预测池为预测组合的效用奠定了基础。这些基础预测可能来自统计或机器学习模型,也可能基于观察到的数据获得或来自于专家判断。经验证据表明,未来预测组合的研究可注重于统计和机器学习产生的预测组合,同时也可以融入专家判断。当可用的预测池中包含大量基础预测时,为了提高预测性能和降低计算成本,选择一个用于组合的基础预测子集显得尤为关键。在对预测池进行筛选的过程中,需要考虑众多关键要素,如准确性、稳健性、多样性等。然而,大多数现有的预测池裁剪算法都进行主观裁剪且缺乏统计依据。因此,未来的研究应进一步关注经验指南和定量指标的发展,以帮助预测者在预测组合之前对预测池进行筛选。

6.交叉学习和特征工程。 很多研究已经证实,利用多条时间序列而不是单条时间序列的信息可以挖掘利用交叉学习的潜力以及学习序列之间的共同模式,从而提升预测组合的性能。交叉学习的潜力已在多项预测竞赛及大量实证研究中得到证实。此外,特征工程(包括时间序列本身的特征及其他外部特征)通过交叉学习为预测组合提供额外的有用信息,可以进一步提高预测精度。因此,本文建议在预测组合研究中进一步开发特征工程及交叉学习的潜力和优势。

7.聚焦概率预测组合方法的研究。 在概率预测组合中,线性混合和分位数组合表明了两种不同的组合思维方式 — 线性混合需要对单项基础预测的累积分布函数进行纵向平均,而分位数组合需要进行横向平均。因此,它们得到的组合预测具有不同的属性和特点,从预测组合中获取的收益也有所不同。例如,在某些情况下,分位数组合的形状维持属性在很多应用情形下具有较大的吸引力。在过去十年中,线性混合吸引了大量的关注,在理论上和实证上都得到了迅速发展。然而,相比之下,分位数组合方法并没有得到很多关注,尤其是在理论领域。此外,当为不同的分位数水平定制组合权重时需要估计的参数数量大幅增长,造成组合权重估计的不稳定性。这一问题可能会对样本外组合预测的校准和锐度产生负面影响,使分位数组合成为一项具有挑战性的任务。综上所述,未来对分位数预测组合的理论和实证研究将是有意义的。

8.讨论是否、如何以及何时有必要对组合权重进行解释。 在概率预测组合中,一些组合方法具有这样的特性:当样本量趋于无穷大时,表现不佳的预测几乎肯定会被拒绝从而支持最佳的单项预测。例如,贝叶斯模型平均在大样本下会简化为模型选择,“最优”模型得到的组合权重无限接近于 1。然而,部分研究表明,将个别表现差的基础预测保留在预测组合中仍然可能会有产生积极作用。在这种情况下,我们不希望对这些表现差的基础预测进行零加权(当样本量趋于无穷大时)。这涉及到是否、如何以及何时有必要对组合权重进行解释的问题,也是另一个值得探索的未来研究方向。

9.在预测组合中考虑基础预测之间的相关性。 基础预测之间往往存在相关性,这是由于它们可能共享相同的数据、重叠的信息、类似的预测模型和共同的训练过程。这种相关性可能会很关键,对预测组合的效用有较大的影响。尽管对该相关性的估计可能很差,但大量点预测组合文献中已经试图从权重估计的角度考虑这种相关性。然而在概率预测组合文献中却很少关注基础预测之间的相关性,仅有少数研究从贝叶斯的角度将该相关性考虑在内。因此,另一个未来的潜在研究方向是在概率预测组合的加权方案中更多地考虑到基础预测之间的相关性。

5 参考文献

  • Adhikari, R. (2015). A mutual association based nonlinear ensemble mechanism for time series forecasting. Applied Intelligence, 43(2), 233–250.

  • Babikir, A., & Mwambi, H. (2016). Evaluating the combined forecasts of the dynamic factor model and the artificial neural network model usinglinear andnonlinear combiningmethods. Empirical Economics, 51(4), 1541–1556.

  • Bates, J. M., & Granger, C. W. J. (1969). The combination of forecasts. Journal of the Operational Research Society, 20(4), 451–468.

  • Busetti, F. (2017). Quantile aggregation of density forecasts. Oxford Bulletin of Economics and Statistics, 79(4), 495–512.

  • Burnham, K. P., & Anderson, D. R. (2002). Model selection and multimodel inference: a practical information-theoretic approach (2nd ed.). Springer New York, NY,

  • Bunn, D. W. (1975). A Bayesian approach to the linear combination of forecasts. Journal of the Operational Research Society, 26, 325–329.

  • Chan, F., & Pauwels, L. L. (2018). Some theoretical results on forecast combinations. International Journal of Forecasting, 34(1), 64–74.

  • Claeskens, G., Magnus, J. R., Vasnev, A. L., & Wang, W. (2016). The forecast combination puzzle: A simple theoretical explanation. International Journal of Forecasting, 32(3), 754–762.

  • Clemen, R. T. (1989). Combining forecasts: A review and annotated bibliography. International Journal of Forecasting, 5(4), 559–583.

  • Clemen, R. T., & Winkler, R. L. (1986). Combining economic forecasts. Journal of Business & Economic Statistics, 4(1), 39–46.

  • Diebold, F. X., & Pauly, P. (1990). The use of prior information in forecast combination. International Journal of Forecasting, 6(4), 503–508.

  • Donaldson, R. G., & Kamstra, M. (1996). Forecast combining with neural networks. Journal of Forecasting, 15(1), 49–61.

  • Draper, D. (1995). Assessment and propagation of model uncertainty. Journal of the Royal Statistical Society. Series B. Statistical Methodology, 57(1), 45–70.

  • Freitas, P. S. A., & Rodrigues, A. J. L. (2006). Model combination in neural-based forecasting. European Journal of Operational Research, 173(3), 801–814.

  • Gaba, A., Tsetlin, I., & Winkler, R. L. (2017). Combining interval forecasts. Decision Analysis, 14(1), 1–20.

  • Garratt, A., Lee, K., Pesaran, M. H., & Shin, Y. (2003). Forecast uncertainties in macroeconomic modeling. Journal of the American Statistical Association, 98(464), 829–838.

  • Genest, C., & Schervish, M. J. (1985). Modeling expert judgments for Bayesian updating. The Annals of Statistics, 13(3), 1198–1212.

  • Gneiting, T., Balabdaoui, F., & Raftery, A. E. (2007). Probabilistic forecasts, calibration and sharpness. Journal of the Royal Statistical Society. Series B. Statistical Methodology, 69(2), 243–268.

  • Gneiting, T., & Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and estimation. Journal of the American Statistical Association, 102(477), 359–378.

  • Granger, C. W. J., & Ramanathan, R. (1984). Improved methods of combining forecasts. Journal of Forecasting, 3(2), 197–204.

  • Hall, S. G., & Mitchell, J. (2007). Combining density forecasts. International Journal of Forecasting, 23(1), 1–13.

  • Henderson, T., & Fulcher, B. D. (2021). An empirical evaluation of time-series feature sets. In 2021 International conference on data mining workshops (pp. 1032–1038).

  • Jose, V. R. R., Grushka-Cockayne, Y., & Lichtendahl, K. C. (2014). Trimmed opinion pools and the Crowd’s calibration problem. Management Science, 60(2), 463–475.

  • Jose, V. R. R., & Winkler, R. L. (2009). Evaluating quantile assessments. Operations Research, 57(5), 1287–1297.

  • Jouini, M. N., & Clemen, R. T. (1996). Copula models for aggregating expert opinions. Operations Research, 44(3), 444–457.

  • Kang, Y., Hyndman, R. J., & Li, F. (2020). GRATIS: GeneRAting TIme Series with diverse and controllable characteristics. Statistical Analysis and Data Mining, 13(4),354–376.

  • Kang, Y., Hyndman, R. J., & Smith-Miles, K. (2017). Visualising forecasting algorithm performance using time series instance spaces. International Journal of Forecasting, 33(2), 345–358.

  • Kolassa, S. (2011). Combining exponential smoothing forecasts using Akaike weights. International Journal of Forecasting, 27(2), 238–251.

  • Krasnopolsky, V. M., & Lin, Y. (2012). A neural network nonlinear multimodel ensemble to improve precipitation forecasts over continental US. Advances in Meteorology, 2012,

  • Lahiri, K., Peng, H., & Zhao, Y. (2015). Testing the value of probability forecasts for calibrated combining. International Journal of Forecasting, 31(1), 113–129.

  • Leamer, E. E. (1978). Specification searches: Ad Hoc inference with nonexperimental data. Wiley.

  • Lemke, C., & Gabrys, B. (2010). Meta-learning for time series forecasting and forecast combination. Neurocomputing, 73(10), 2006–2016.

  • Li, X., Kang, Y., & Li, F. (2020). Forecasting with time series imaging. Expert Systems with Applications, 160(113680), Article 113680.

  • Lichtendahl, K. C., Grushka-Cockayne, Y., & Winkler, R. L. (2013). Is it better to average probabilities or quantiles? Management Science, 59(7), 1594–1611.

  • Makridakis, S., & Winkler, R. L. (1983). Averages of forecasts: Some empirical results. Management Science, 29(9), 987–996.

  • McAlinn, K., & West, M. (2019). Dynamic Bayesian predictive synthesis in time series forecasting. Journal of Econometrics, 210(1), 155–169.

  • Montero-Manso, P., Athanasopoulos, G., Hyndman, R. J., & Talagala, T. S. (2020). FFORMA: Feature-based forecast model averaging. International Journal of Forecasting, 36(1), 86–92.

  • Morris, P. A. (1974). Decision analysis expert use. Management Science, 20(9).

  • Morris, P. A. (1977). Combining expert judgments: A Bayesian approach. Management Science, 23(7), 667–787.

  • Newbold, P., & Granger, C. W. J. (1974). Experience with forecasting univariate time series and the combination of forecasts. Journal of the Royal Statistical Society: Series A (General), 137(2), 131–146.

  • Nowotarski, J., Raviv, E., Trück, S., & Weron, R. (2014). An empirical comparison of alternative schemes for combining electricity spot price forecasts. Energy Economics, 46, 395–412.

  • Öller, L.-E. (1978). A method for pooling forecasts. Journal of the Operational Research Society, 29(1), 55–63.

  • Palm, F. C., & Zellner, A. (1992). To combine or not to combine? issues of combining forecasts. Journal of Forecasting, 11(8), 687–701.

  • Park, S., & Budescu, D. V. (2015). Aggregating multiple probability intervals to improve calibration. Judgment and Decision Making, 10(2), 130–143.

  • Pawlikowski, M., & Chorowska, A. (2020). Weighted ensemble of statistical models. International Journal of Forecasting, 36(1), 93–97.

  • Petropoulos, F., Hyndman, R. J., & Bergmeir, C. (2018). Exploring the sources of uncertainty: Why does bagging for time series forecasting work? European Journal of Operational Research, 268(2), 545–554.

  • Raftery, A. E., Madigan, D., & Hoeting, J. A. (1997). Bayesian model averaging for linear regression models. Journal of the American Statistical Association, 92(437), 179–191.

  • Raftery, A. E., Kárný, M., & Ettler, P. (2010). Online prediction under model uncertainty via dynamic model averaging: Application to a cold rolling mill. Technometrics, 52(1), 52–66.

  • Smith, J., & Wallis, K. F. (2009). A simple explanation of the forecast combination puzzle. Oxford Bulletin of Economics and Statistics, 71(3), 331–355.

  • Stock, J. H., & Watson, M. W. (2004). Combination forecasts of output growth in a seven-country data set. Journal of Forecasting, 23(6), 405–430.

  • Stone, M. (1961). The opinion pool. The Annals of Mathematical Statistics, 32(4), 1339–1342.

  • Talagala, T. S., Hyndman, R. J., & Athanasopoulos, G. (2018). Metalearning how to forecast time series. Monash Econometrics and Business Statistics Working Papers, 6, 18.

  • Timmermann, A. (2006). Forecast combinations. In G. Elliott, C. W. J. Granger, & A. Timmermann (Eds.), Handbook of economic forecasting, vol. 1 (pp. 135–196). Elsevier,

  • Vincent, S. B. (1912). The functions of the vibrissae in the behavior of the white rat. Kessinger Publishing.

  • Wang, Y., Zhang, N., Tan, Y., Hong, T., Kirschen, D. S., & Kang, C. (2019). Combining probabilistic load forecasts. IEEE Transactions on Smart Grid, 10(4), 3664–3674.

  • West, M. (1992). Modelling agent forecast distributions. Journal of the Royal Statistical Society. Series B. Statistical Methodology, 54(2), 553–567.

  • West, M., & Crosse, J. (1992). Modelling probabilistic agent opinion. Journal of the Royal Statistical Society. Series B. Statistical Methodology, 54(1), 285–299.

  • Winkler, R. L. (1968). The consensus of subjective probability distributions. Management Science, 15(2), B–61–B–75

  • Winkler, R. L., & Makridakis, S. (1983). The combination of forecasts. Journal of the Royal Statistical Society: Series A (General), 146(2), 150–157.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存